Programa Automatizado de Juicio de Similitud

El Programa Automatizado de Juicio de Similitud (inglés ASJP, Automated Similarity Judgment Program) es un proyecto colaborativo que aplica enfoques computacionales a lingüística comparativa utilizando una base de datos de listas de vocabulario. La base de datos es de acceso abierto y consta de listas de vocabulario básico de 40 elementos, para más de la mitad de los idiomas del mundo.^[1] Cada nueva versión ha incluido una expansión continua de dicha base de datos. Además de lenguas aisladas y lenguas de grupos filogenéticos demostrados, la base de datos incluye ahora pidgins, lenguas criollas, lenguas mixtas y lenguas construidas. las palabras de la base de datos se transcriben en una ortografía estándar simplificada (ASJPcode).^[2] La base de datos se ha utilizado para estimar las fechas en las que las familias lingüísticas han divergido a partir de la proto-lengua (lengua madre) original en sus diversos descencientes modernos (lenguas hijas) por un método relacionado pero aún diferente de glotocronología,^[3] determinar la patria (Urheimat) de una proto-lengua,^[4] investigar simbolismo sonoro,^[5] para evaluar diferentes métodos filogenéticos,^[6] y varios otros propósitos.

La clasificación de ASJP no es ampliamente aceptada por los lingüistas históricos, y por tanto, no se considera que por sí mismo proporcione un método suficientemente adecuado para establecer o evaluar por sí mismo las relaciones entre las familias lingüísticas.^[7]^[8] Sin embargo, algunas de las relaciones encontradas originalmente, posteriormente tras una inspección minuciosa usando el método comparativo ortodoxo se ha visto que eran identificaciones correctas.

Historia

Objtivos originales

ASJP se desarrolló originalmente como un medio para evaluar objetivamente la similitud de palabras con el mismo significado de diferentes idiomas, con el objetivo final de clasificar los idiomas computacionalmente, en función de las similitudes léxicas observadas. En el primer artículo de ASJP^[2] dos palabras de idiomas presumiblemente relacionados se consideraron similares si mostraban al menos dos segmentos de sonido idénticos. La similitud entre los dos idiomas se calculó como un porcentaje del número total de palabras comparadas que se consideraron similares. Este método se aplicó a listas de palabras de 100 elementos para 250 idiomas de varias familias lingüísticas, que incluían la austroasiática, la indoeuropea, la mayance y la muskogee.

Consorcio ASJP

El Consorcio ASJP, fundado en 2008, llegó a involucrar a alrededor de 25 lingüistas profesionales y otras partes interesadas que trabajan como transcriptores voluntarios y / o extienden la ayuda al proyecto de otras maneras. La principal fuerza impulsora detrás de la fundación del consorcio fue Cecil H. Brown. Søren Wichmann es el encargado usual de mantener el proyecto. Un tercer miembro central del consorcio es Eric W. Holman, quen creó la mayor parte del software utilizado en el proyecto.

Listas de palabras más cortas

Si bien las listas de palabras utilizadas se basaron originalmente en la lista de 100 elementos, se determinó estadísticamente que un subconjunto de 40 de los 100 elementos iniciales producía resultados clasificatorios tan buenos, e incluso ligeramente mejores, que toda la lista completa.^[9]. Esto se debe en parte a que la lista de Swadesh que era altamente parecida a la lista inicial, contiene elementos más estables que otros, por tanto al reducir la lista a los elementos más estables se disminuye el ruido estadístico y la clasificación puede llegar a ser mejor. Por esa razón, posteriormente las listas de palabras reunidas contenían sólo 40 elementos (o menos, cuando faltan atestaciones documentales para algunos de los ítems léxicos).

Distancia de Levenshtein

En artículos publicados desde 2008, ASJP ha empleado un programa de juicio de similitud basado en la distancia de Levenshtein (DL). Se encontró que este enfoque produce mejores resultados clasificatorios, medidos por comparación con las clasificaciones estándar dadas por los especialistas en diferentes familias, que el método utilizado inicialmente por Brown. La DL se define como el número mínimo de cambios sucesivos necesarios para convertir una palabra en otra, donde cada cambio es la inserción, eliminación o sustitución de un símbolo. Dentro del enfoque de Levenshtein, las diferencias en la longitud de las palabras se pueden corregir dividiendo DL por el número de símbolos de la más larga de las dos palabras comparadas. Esto produce DL normalizada (DLN). Un DLN dividido (DLND) entre los dos idiomas se calcula dividiendo el DLN promedio para todos los pares de palabras que involucran el mismo significado por el DLN promedio para todos los pares de palabras que involucran diferentes significados. Esta segunda normalización pretende corregir la similitud fortuita.^[10]

Lista de palabras

El ASJP utiliza la siguiente lista de 40 palabras.^[11] Es similar a la lista de Swadesh-Yakhontov, pero tiene algunas diferencias. Los términos originales en inglés son:

Partes del cuerpo

eye 'ojo'
ear 'oreja'
nose 'nariz'
tongue 'lengua'
tooth 'diente'
hand 'mano'
knee 'rodilla'
blood 'sangre'
bone 'hueso'
breast 'senos'
liver 'hígado'
skin 'piel'

Animales y plantas

louse 'piojo'
dog 'perro'

fish 'pez'
horn 'cuerno'
tree 'árbol'
leaf'hoja'

Personas

person 'ser humano'
name 'nombre'

Objetos y fenómenos naturales

sun 'sol'
star 'estrella'
water 'agua'
fire 'fuego'
stone 'piedra'
path 'camino'
mountain 'montaña'
night 'noche'

Verbos y adjectivos

drink 'beber'
die 'morir'
see 'ver'
hear 'oír'
come 'venir'
new 'nuevo'
full 'lleno'

Numerales y pronombres

one 'uno'
two 'dos'
I 'yo'
you 'tú'
we 'nosotros'

Codificación de ASJP de los fonemas

La versión de ASJP de 2016 utiliza los siguientes símbolos para codificar fonemas: < p b f v m w 8 t d s z c n r l S Z C j T 5 y k g x N q X h 7 L 4 G ! i e E 3 a u o >. Esto grafemas representan 7 vocales y 34 consonantes, todas encontradas en el teclado QWERTY estándar.

Sonidos representados por ASJPcode^[2]
ASJPcode	Descripción	AFI
i	vocal anterior alta, redondeada y no redondeada	i, ɪ, y, ʏ
e	vocal anterior media, redondeada y no redondeada	e, ø
E	vocal anterior baja, redondeada y no redondeada	a, æ, ɛ, ɶ, œ
3	vocal central alta y media, redondeada y no redondeada	ɨ, ɘ, ə, ɜ, ʉ, ɵ, ɞ
a	vocal central baja	ɐ
u	vocal posterior alta, redondeada y no redondeada	ɯ, u
o	vocal posterior media y baja, redondeada y no redondeada	ɤ, ʌ, ɑ, o, ɔ, ɒ
p	voiceless bilabial stop and fricative	p, ɸ
b	oclusiva y fricativa bilabial sorda	b, β
m	nasal bilabial	m
f	fricativa sorda labiodental	f
v	fricativa labiodental sonora	v
8	fricativas dental sorda y sonora	θ, ð
4	nasal dental	n̪
t	oclusiva alveolar sorda	t
d	oclusiva alveolar sonora	d
s	fricativa alveolar sorda	s
z	fricativa alveolar sonora	z
c	africadas alveolar sorda y sonora	ts, dz
n	nasal alveolar sorda y sonora	n
S	fricativa postalveolar sorda	ʃ
Z	fricativa postalveolar sonora	ʒ
C	africada palatoalveolar sorda	tʃ
j	africada palatoalveolar sonora	dʒ
T	oclusivas palatal sorda y sonora	c, ɟ
5	nasal palatal	ɲ
k	oclusiva velar sorda	k
g	oclusiva velar sonora	ɡ
x	fricativas velar sorda y sonora	x, ɣ
N	nasal velar	ŋ
q	oclusiva uvular sorda	q
G	oclusiva uvular sonora	ɢ
X	fricativas uvulares y faríngeas sordas y sonoras	χ, ʁ, ħ, ʕ
7	oclusiva glotal sorda	ʔ
h	fricativas glotales sorda y sonora	h, ɦ
l	lateral alveolar sonora	l
L	todas los demás laterales	ʟ, ɭ, ʎ
w	aproximante labiovelar	w
y	aproximante palatal	j
r	rótica apicoalveolar y sonidos "r”	r, ʀ, etc.
!	Todas las variedades de "clics"	ǃ, ǀ, ǁ, ǂ

Una marca ~ sigue a dos consonantes para que se consideren en la misma posición. Por lo tanto, kwat se convierte en kw~at. Las sílabas como kat, wat, kaw y kwi se consideran léxicamente similares a kw~at. Del mismo modo, una marca $ sigue a tres consonantes para que se considere que están en la misma posición. ndy$im se considera similar a nim, dam y yom. " marca la consonante precedente como glotalizada.

Véase también

Referencias

↑ Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant y Pilar Valenzuela. 2013. The ASJP Database (versión 16). http://asjp.clld.org/
↑ ^a ^b ^c Brown, Cecil H., Eric W. Holman, Søren Wichmann y Viveka Velupillai. Clasificación automatizada de las lenguas del mundo: una descripción del método y resultados preliminares. STUF – Language Typology and Universals 61.4: 285-308.
↑ Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List y Dmitry Egorov. Datación automatizada de las familias lingüísticas del mundo basadas en la similitud léxica. Current Anthropology 52.6: 841-875.
↑ Wichmann, Søren, André Müller y Viveka Velupillai. 2010. Homelands of the world's language families: A quantitative approach. Diachronica 27.2: 247-276.
↑ Wichmann, Søren, Holman, Eric W., y Cecil H. Brown. 2010. Simbolismo sonoro en vocabulario básico. Entropía 12.4: 844-858.
↑ Pompeya, Simone, Vittorio Loreto y Francesca Tria. 2011. Sobre la precisión de los árboles lingüísticos. PLoS ONE 6: e20109.
↑ Cf. comentarios de Adelaar, Blust y Campbell en Holman, Eric W., et al. (2011) "Automated Dating of the World's Language Families Based on Lexical Similarity". Current Anthropology, vol. 52, no. 6, pp. 841–875.
↑ «Cross-Linguistic Linked Data». Consultado el 22 de febrero de 2020.
↑ Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller y Dik Bakker. 2008. Explorations in automated language classification. Folia Linguistica 42.2: 331-354.
↑ Wichmann, Søren, Eric W. Holman, Dik Bakker y Cecil H. Brown. 2010. Evaluación de medidas de distancia lingüística. Physica A 389: 3632-3639 (doi 10.1016/j.physa.2010.05.011).
↑ http://asjp.clld.org/static/Guidelines.pdf

Bibliografía

Søren Wichmann, Jeff Good (eds). 2014. Quantifying Language Dynamics: On the Cutting edge of Areal and Phylogenetic Linguistics, p. 203. Leiden: Brill.
Brown, Cecil H., et al. 2008. Automated Classification of the World's Languages: A Description of the Method and Preliminary Results. Language Typology and Universals 61(4). November 2008. doi 10.1524/stuf.2008.0026
Wichmann, Søren, Eric W. Holman, and Cecil H. Brown (eds.). 2018. The ASJP Database (version 18).

Enlaces exteriores

ASJP Database (página oficial del proyecto)

Datos: Q4826427

[1] Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant y Pilar Valenzuela. 2013. The ASJP Database (versión 16). http://asjp.clld.org/

[BrownCecil-2] Brown, Cecil H., Eric W. Holman, Søren Wichmann y Viveka Velupillai. Clasificación automatizada de las lenguas del mundo: una descripción del método y resultados preliminares. STUF – Language Typology and Universals 61.4: 285-308.

[3] Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List y Dmitry Egorov. Datación automatizada de las familias lingüísticas del mundo basadas en la similitud léxica. Current Anthropology 52.6: 841-875.

[4] Wichmann, Søren, André Müller y Viveka Velupillai. 2010. Homelands of the world's language families: A quantitative approach. Diachronica 27.2: 247-276.

[5] Wichmann, Søren, Holman, Eric W., y Cecil H. Brown. 2010. Simbolismo sonoro en vocabulario básico. Entropía 12.4: 844-858.

[6] Pompeya, Simone, Vittorio Loreto y Francesca Tria. 2011. Sobre la precisión de los árboles lingüísticos. PLoS ONE 6: e20109.

[7] Cf. comentarios de Adelaar, Blust y Campbell en Holman, Eric W., et al. (2011) "Automated Dating of the World's Language Families Based on Lexical Similarity". Current Anthropology, vol. 52, no. 6, pp. 841–875.

[8] «Cross-Linguistic Linked Data». Consultado el 22 de febrero de 2020.

[9] Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller y Dik Bakker. 2008. Explorations in automated language classification. Folia Linguistica 42.2: 331-354.

[10] Wichmann, Søren, Eric W. Holman, Dik Bakker y Cecil H. Brown. 2010. Evaluación de medidas de distancia lingüística. Physica A 389: 3632-3639 (doi 10.1016/j.physa.2010.05.011).

[11] ttp://asjp.clld.org/static/Guidelines.pdf

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]